home *** CD-ROM | disk | FTP | other *** search
/ Cream of the Crop 11 / Cream of the Crop 11-1.iso / compress / act_27.zip / CALGARY.SET < prev    next >
Text File  |  1995-12-30  |  4KB  |  88 lines

  1. Version Twenty Seven, Archive Comparison Table            [30 December 1995]
  2.                                                            [ACT\CALGARY.SET]
  3.  
  4. The following files were used in the Calgary/Canterbury text compression
  5. corpus test.  For more details see below.
  6.  
  7.     Name        Size   Description
  8. ---------------------------------------------------------------------------
  9. BIB           111,261  Bibliographic files (refer format)
  10. BOOK1         768,771  Hardy: Far from the madding crowd
  11. BOOK2         610,856  Witten: Principles of computer speech
  12. GEO           102,400  Geophysical data
  13. NEWS          377,109  News batch file
  14. OBJ1           21,504  Compiled code for Vax: compilation of progp
  15. OBJ2          246,814  Compiled code for Apple Macintosh: Knowledge support
  16.                        system
  17. PAPER1         53,161  Witten, Neal and Cleary: Arithmetic coding for data
  18.                        compression
  19. PAPER2         82,199  Witten: Computer (in)security
  20. PAPER3         46,526  Witten: In search of "autonomy"
  21. PAPER4         13,286  Cleary: Programming by example revisited
  22. PAPER5         11,954  Cleary: A logical implementation of arithmetic
  23. PAPER6         38,105  Cleary: Compact hash tables using bidirectional
  24.                        linear probing
  25. PIC           513,216  Picture number 5 from the CCITT Facsimile test files
  26.                        (text + drawings)
  27. PROGC          39,611  C source code: compress version 4.0
  28. PROGL          71,646  Lisp source code: system software
  29. PROGP          49,379  Pascal source code: prediction by partial matching
  30.                        evaluation program
  31. TRANS          93,695  Transcript of a session on a terminal
  32. ---------------------------------------------------------------------------
  33.  
  34. 18 Files, 3,251,493 bytes in total size, but actually takes up 3,325,952
  35. bytes, due to file slack (2%).
  36.  
  37.  
  38. *** More Details ***
  39. This corpus is used in the book
  40.  
  41.         Bell, T.C., Cleary, J.G. and Witten, I.H. Text compression.
  42.     Prentice Hall, Englewood Cliffs, NJ, 1990
  43.  
  44. and in the survey paper
  45.  
  46.     Bell, T.C., Witten, I.H. and Cleary, J.G. "Modeling for text
  47.     compression," Computing Surveys 21(4): 557-591; December 1989,
  48.  
  49. to evaluate the practical performance of various text compression schemes.
  50. Several other researchers are now using the corpus to evaluate text
  51. compression schemes.
  52.  
  53. Nine different types of text are represented, and to confirm that the
  54. performance of schemes is consistent for any given type, many of the types
  55. have more than one representative.  Normal English, both fiction and
  56. non-fiction, is represented by two books and papers (labeled book1, book2,
  57. paper1, paper2, paper3, paper4, paper5, paper6).  More unusual styles of
  58. English writing are found in a bibliography (bib) and a batch of unedited
  59. news articles (news). Three computer programs represent artificial languages
  60. (progc, progl, progp). A transcript of a terminal session (trans) is
  61. included to indicate the increase in speed that could be achieved by
  62. applying compression to a slow line to a terminal.  All of the files
  63. mentioned so far use ASCII encoding.  Some non-ASCII files are also
  64. included: two files of executable code (obj1, obj2), some geophysical data
  65. (geo), and a bit-map black and white picture (pic).  The file geo is
  66. particularly difficult to compress because it contains a wide range of data
  67. values, while the file pic is highly compressible because of large amounts
  68. of white space in the picture, represented by long runs of zeros.
  69.  
  70. More details of the individual texts are given in the book mentioned above.
  71. Both book and paper give the results of compression experiments on these
  72. texts.
  73.  
  74. The corpus itself constitutes files bib, book1, book2, geo, news, obj1,
  75. obj2, paper1, paper2, paper3, paper4, paper5, paper6, pic, progc, progl,
  76. progp and trans.  (The book and paper above do not give results for files
  77. paper3, paper4, paper5 or paper6.)
  78.  
  79. The directory "index" contains the sizes of the files and some information
  80. about where they came from.
  81.  
  82. Ian H. Witten                Timothy C. Bell
  83. Computer Science Department        Computer Science Department
  84. University of Calgary            University of Canterbury
  85. Calgary T2N 1N4, Canada            Christchurch 1, New Zealand
  86. Phone (403) 220-6780            Phone (64-3) 642352
  87. email: ian@cpsc.UCalgary.CA        email: tim@cosc.canterbury.ac.nz
  88.